برازش مدل رگرسیون خطی چند گانه با خطاهای وابسته و داراری توزیع t چند متغیره )مطالعه موردی بازار بورس تهران اعظم غمگسار*)ارائهکننده انیس ایرانمنش*)مکاتبهکننده** امیر دانشگر anisiranmanesh@yahoo.com mr.daneshgar@gmail.comazamghamgosar@yahoo.com *دانشگاه آزاد اسالمی واحد مشهد **دانشگاه آزاد اسالمی واحد مشهد دانشگاه آزاد اسالمی واحد مشهد چکیده توزیع نرمال در اکثر زمینههای آمار مورد استفاده است اما در بعضی مسائل توزیع نرمال پاسخگو نمیباشد و الزم است توزیع دیگری جانشین آن گردد به خصوص زمانیکه دنباله توزیع دادهها پهنتر از توزیع نرمال است چون توزیع t دنبالههای پهنتری دارد بهتر است توزیع t به دادهها برازش دادهشود. توزیع t چند متغیره در دهههای اخیر توجه بسیاری از محققان را به خود جلب کردهاست این توزیع تعمیم توزیع t یک متغیره است که در بحث استنباط آماری کاربرد زیادی دارد. در مدل رگرسیون خطی چندگانه معموال فرض براین است که خطاها مستقل و دارای توزیع نرمال میباشند اما این فرض در اکثر مثالها و دادههای واقعی برقرار نیست. گاهی اوقات برای بردار خطا در مدل رگرسیون توزیع t چندمتغیره توزیع مناسبی به نظر میرسد. در این مقاله برای دادههای مربوط به بازده چند شرکت در بورس تهران مدل رگرسیون خطی چندگانه برازش داده شده و فرض شدهاست که در این مدل خطاها وابسته و دارای توزیع t -استودنت چند متغیره هستند. با این فرض برآورد پارامترهای مدل بهدست آمده است )سلترادر و علی 89 همچنین آزمونی برای تشخیص استقالل یا وابستگی خطاها بر اساس عدد کولبک-الیبلر انجام شده است. )گوررو-کازومانو 88. واژههای کلیدی: آزمون استقالل اطالع متقابل توزیع t چندمتغیره عدد کولبک-الیبلر مدل رگرسیون چندگانه. - مقدمه در مدل رگرسیون خطی چندگانه یکی از فرضهای بنیادی مدل آن است که خطاها مستقل و دارای توزیع نرمال باشند ولی معموال این فرضها برقرار نیستند. یکی از توزیعهایی که میتوانند جانشین مناسبی برای توزیع نرمال باشند توزیع t -استودنت نیز است. عالوه براین بعضی از توزیعهای عضو خانواده توزیعهای بیضیگون است که این توزیع از توزیع نرمال دمسنگینتر میتوانند جانشین مناسبی برای توزیع نرمال باشند.در این مقاله دادههای مربوط به چند شرکت خودروسازی از بورس تهران انتخاب شده و مدل رگرسیون خطی چندگانه به آنها برازش دادهشده است. بدین منظور فرض شده است که خطاها وابسته و Heavy tail Eliptical distributions
دارای توزیع t -استودنت چند متغیره هستند. به منظور بررسی استقالل یا وابستگی خطاها بر اساس عدد کولبک-الیبلر آزمونی انجام شدهاست. تعریف.. بردار تصادفی p بعدی ماتریس مقیاس Σ است هرگاه دارای تابع چگالی احتمال زیر باشد: دارای توزیع p t متغیره با درجه آزادی ν و بردار میانگین μ و ) ] ) که در آن یک بردار یک ماتریس معین مثبت است و با نماد نشان داده میشود. در این. صورت و اندازه وابستگی بین متغیرهای تصادفی پیوسته به وسیله اندازههای احتماالتی همچون ضریب همبستگی اسپیرمن تاوکندال همبستگی خطی ضریب همبستگی ماکزیمال ضریب همبستگی یکنواخت و ضریب توان دو میانگین بیان میشود که کاربرد آنها برای توزیعهای دومتغیره است. عدد کولبک-الیبلر معیار اندازه وابستگی برای توزیعهای چندمتغیره است. 3 بردار تصادفی پیوسته تعریف.. اندازه وابستگ یا اطالع متقابل حاشیهای که به صورت زیر تعریف میشود: با تابع چگالی احتمال توام و توابع چگالی احتمال ] 0 ) 4 میباشد. تابع T حالت خاصی از عدد کولبک-الیبلر هرچقدر T بزرگتر باشد وابستگی بین متغیرها بیشتر است و اگر 0 بیشتر به کاتز و ناداراجا )00 و کولبک )89 مراجعه کنید. باشد متغیرها از هم مستقل میباشند. برای جزئیات قضیه.. )کاتز و ناداراجا 00 اگر آنگاه: ) ] ) ) )]. ) قضیه.. )گوررو-کازومانو 88 اطالع متقابل T در رابطهی ) به صورت تفاضل دو آنتروپی است که آنرا میتوان به فرم زیر نیز نوشت: 3 Mutual information 4 Kullback-Leibler number
که به صورت زیر تعریف میشود: ) ] ) )] ) )] 3) در قضیه زیر برآورد ماکزیمم درستنمایی T ارائه میگردد. برآورد ماکزیمم درستنمایی T براساس یک نمونه k قضیه.. )گوررو-کازومانو 88 فرض کنید تایی به صورت زیر است: ) ), 4) که در رابطهی )3 تعریف شده و ) ) همان ماتریس همبستگی بین بردارهای خطاست. اثبات. به وسیله جایگزینی با برآورد ماکزیمم درستنمایی آن در T به دست میآید. داریم: ) اندرسون )003 را ببینید. بنابراین: ) ) ) ) ) ).
)یا δ یک متغیر تصادفی نامنفی است و توزیع آنرا میتوان به وسیله مضربی از یک تقریب زد. γ قضیه.. )گوررو-کازومانو 88 برای k و ν بزرگ توزیع ] تقریب زده میشود. با به وسیله درجه آزادی اثبات. ثابت میکنیم که برای k و ν بزرگ کوموالن های به کوموالنهای کیدو همگراست. قبل از حد گرفتن از تابع مولد کوموالن باید به این نکته توجه کرد که برای z های بزرگ داریم: ) صفحه آبرامویچ )80 را ببینید. حال را حساب میکنیم: ) ) ) { ) )}] ) و ) طبق رابطهی ) عبارتهای را میتوان به صورت زیر نوشت: ) ) ) ) ) ) ) ) ) در نتیجه ) ) ) و ) )] )] بنابراین داریم:
{ )] ) )]} 0 ) ) در نتیجه برای k های بزرگ و رابطهی 3 داریم: ] 0 ) )] با توجه به رابطهی )آبرامویچ 80 داریم: ) ] ) 4 که کوموالن توزیع کیدو است بنابراین توزیع ] به طور تقریبی برابر است. فرض کنید خطاها دارای توزیع t چند متغیره باشند یک روش مناسب برای آزمون استقالل خطاها در توزیع t استفاده از عدد کولبک الیبلر است. به این صورت که برای آزمون کردن فرض خطاها مستقلاند خطاها مستقل نیست اگر 0 باشد بدین معنی است که فرض پذیرفته میشود در غیر این صورت رد میشود. بهطور معادل: فرض رد میشود
- مثال کاربردی یکی از مسائل مهم در تحلیل بازار سهام بررسی عملکرد )بازده شرکتهای انتخابی از بین شرکتهای یک بازار بورس است. ساترادر و علی )89 بازده ماهانه چهار شرکت را طی بیست ماه در بازار بورس نیویورک مورد مطالعه قرار دادند مدل رگرسیونی به صورت زیر است: 4 بطوریکه: بازده ماهانه حاصل از سهم i امین شرکت طی j امین ماه. : میانگین بازده شرکتها در طول ماه j ام. تعمیمی از مدل ) را میتوان با انتخاب k بازار برای p شرکت و n ماه به صورت زیر بیان کرد: ه و بطوریکه پارامترهای مدل هستند. مدل ماتریسی رابطهی باال را میتوان به صورت نوشت بهطوریکه Y یک ماتریس خطا میباشد. زلنر و X یک ماتریس )8 به مفروضات زیر در رابطه با متغیر خطا ] است که ماتریس طرح نامیده میشود همچنین اشاره کرد: ماتریس ) 0 ) 9 ) ) 0. که ماتریس ] دارای توزیع نرمال هستند و ماتریسی از پارامترهای مجهول است. همچنین فرض کنید برای σ داده شده بردارهای ) 5 Zellner
حال اگر دارای توزیع گامای معکوس با تابع چگالی احتمال زیر باشد )ν پارامتر مجهول: ) ) )] ) 0 0 آنگاه ثابت میشود که توزیع خطاها توزیع t چندمتغیره است. همچنین برآورد پارامترهای مدل رگرسیونی و درجه آزادی را به صورت زیر بهدست آوردند: ) ) 8 ) ) 0) 3 4 ] 3 4 ] در این مقاله ما پنج شرکت خودروسازی را در بازار بورس ایران در نظر میگیریم:ایران خودرو پارس خودرو سایپا ماشین سازی اراک و ایران خودرو دیزل. بازدههای مربوط به این پنج شرکت در جدول آمده است. الزم به ذکر است که برای تسهیل در چاپ که به ترتیب ترانهاده ماتریس طرح و ترانهاده ماتریس خطا و ماتریسها را به صورت ترانهاده آوردهایم. همچنین ماتریس هستند در صفحه بعد آمدهاند. جدول : دادههای بازده ماهانه بورس تهران ایران خودرو دیزل.80-9 -4. -.3 4.9.9 -.9-8.9 -. 3.0 -. 0.3 ماشین سازی اراک 4.43 -. -. -.8 8.9 3.40 -.38-9.39 -. - -.94 0. سایپا.4 -.8 -.4-4.09-0.4 0.83-9.9-8.49.08-4.89..9 پارس خودرو 4.49 -.44-0.98 0.33.89-8. -.99 0.39-4.49 -. -.09 ایران خودرو -.8.0-8 -3.9 0.8 -.0 4.80 -. -. -3.84-9. -4. ماه 3 4 9 8 0
98 88 9 3 3 9 0 9 8 44 4 0 3 38 39 4 33 ] 934 34 3 93 948 48 98 4 890 0 3 9 04 0 4 4 0 3 0 83 0 3 33 8 90 9 480 9 983 443 390 4 9 0 0 30 0 90 0 0 0 890 8 0 94 49 443 480 3 40 4 0 3 3 4 80 0 04 3 94 0 04 098 038 8990 83 3 883 43 8938 9 0 499 0 0 9 89 04 44 3 ] مدل رگرسیونی به صورت 5 ) است. حال پارامترهای مدل را برآورد کرده و آزمون استقالل را برای خطاها با فرض اینکه توزیع t چندمتغیره داشته باشند انجام میدهیم. برآورد پارامترهای و ν و بنابر رابطههای )8 و )0 و ) برای دادههای فوق عبارتند از: 4 449 0 08 3 0 04 0 483 03 98 0 8 0 004 ] 4004 04 0453 40 04 034 5435 3004 00 45 430 5 440 4 4 5 44 40 04 333 44 45 5553 343 3333] ν=43403 حال برای بررسی فرض ) آزمون استقالل برای خطاها انجام میدهیم 3 ماتریس همبستگی به صورت زیر است:
0 4354 0 05 0 4 0 4 0 4 0 0454 0 03 0 4 0 403 0 4453 ] بطوریکه: 0 0 طبق رابطهی )3 داریم: Ω 0 34 و طیق رابطهی )4 داریم: 34 مقدار آمارهی آزمون بنابر قضیهی 4. و تحت فرض برابر با 0 است و چون 0 4 0 05 4 فرض رد می شود و متغیرهای خطا به هم وابسته هستند. مراجع
] Abramowitz M, Stegun I. A handbook of mathematical functions. Dover Publications, New York, 040. ] Anderson T. W. An Introduction to Multivariate Statistical Analysis. Third edition,wiley Series in Probability and Statistics. Wiley-InterScience John Wiley and Sons], Hoboken N. J, 003. 3] Guerrero-Cusumano G. L. An asymptotic test of independence for multivariate t and cauchy random variable with applications. Information Sciences, 00; 0:33-45. 4] Kotz S, Nadarajah S. Sampling distributions associated with the multivariate t distribution. Statistica Neerlandica, 005; :4-34. 5] Kullback S. Information Theory and Statistics. John Wiley and sons,new York, 0. ] Kotz S, Nadarajah S. Multivariate t Distriburion and Their Applications. Cambridge University Press,New York, 004. 4] Sutradhar B, Ali M. Estimation of the parameters of a regression model with a multivariate t error variable. Communications in statistics-theory and Methods, 0; 5):40-450. ] Zellner A. Bayesian and non-bayesian analysis of the regression model with multivariate student t- error term. Journal of the american statistical association, 04; 4:400-405.